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En ce qui concerne les codes a deux lettres et autres abrevia- 
tions, se referer aux "Notes explicatives relatives aux codes et 
abreviations" figurant au debut de chaque numero ordinaire de 
la Gazette du PCT. 



(57) Abrege : Ce procede de recherche d'informations dans des documents stockes dans une memoire electronique comporte les 
etapes suivantes:- selection d'au moins un document parmi les documents stockes, a partir d'une requete comportant au moins une 
chaine de caracteres predeterminee, puis - extraction d'un resultat en vue de son afflchage sous forme d'un apercu d'informations 
relatives au document selectionne, et - prealablement aux etapes de selection et d'extraction, generation d'une table de representation 
des documents stockes, comportant une chaine de caracteres comprenant au moins une partie des informations des documents sto- 
ckes. Lors de l'etape d'extraction, on genere le resultat a l'aide de la table de representation, a partir d'informations contenues dans 
la chaine de caracteres de la table de representation jugees pertinentes en fonction de la requete. 
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Precede de recherche d'informations, moteur de recherche 
et microprocesseur pour la mise en oeuvre de ce precede 

La presente invention concerne un procede de recherche d'informations dans 
des documents stockes dans une memoire electronique. L'invention concerne 
egalement un microprocesseur pour la mise en ceuvre de ce procede et un moteur 
de recherche. 

5 Plus precisement invention concerne un procede de recherche d'informations 

du type comportant les etapes suivantes : 

- selection d'au moins un document parmi les documents stockes, a partir 
d'une requete comportant au moins une chame de caracteres 
predeterminee, puis 

10 - extraction d'un resultat en vue de son affichage sous forme d'un apergu 

d'informations relatives au document selectionne, et 

- prealablement aux etapes de selection et d'extraction, generation d'une 
table de representation des documents stockes, comportant une chame 
de caracteres comprenant au moins une partie des informations des 

15 documents stockes. 

Un tel procede est connu. En effet, devant la multiplication des documents 
sous forme de fichiers obtenus par traitement de texte ou de courriers electroniques 
disponibles dans les micro-ordinateurs et les reseaux internes des entreprises, la 
necessity de disposer d'un procede de recherche d'informations permettant de 

20 retrouver rapidement un document par un element de son contenu s'impose de plus 
en plus. De nouveaux logiciels permettent d'ores et deja de rechercher I'information 
sous forme de texte dans tout type de document, y compris dans les pieces jointes 
de courriers electroniques. Pour cela, prealablement a toute recherche 
d'informations, une table de representation des documents stockes, generalement 

25 appelee index, permet de reprendre pour chacun des documents stockes, une iiste 
de rnot-cles representatifs de ce document et a partir desquels le document peut etre 
eventuellement selectionne sur la base d'une requete. 

Toutefois, malgre cela, les temps de recherche sont encore importants, car 
lorsqu'un document a ete selectionne, il est souvent necessaire d'ouvrir le document 

30 avec le programme de visualisation qui lui est associe pour s'assurer qu'il s'agit bien 
d'un document recherche. Plus grave encore, lorsque I'on a ouvert une dizaine de 
documents (traitement de texte, tableaux, courriers electroniques, etc.), il devient 
difficile de passer de Tun a I'autre. 

L'invention vise a remedier a ces inconvenients en fournissant un procede de 

35 recherche d'informations permettant a un utilisateur de visualiser de fagon rapide et 
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efficace ie contenu de documents selectionnes en reponse a une requete qu'il a 
formulee. 

L'invention a done pour objet un precede de recherche d'informations du type 
precite, caracterise en ce que, lors de I'etape d'extraction, on genere le resultat a 
5 1'aide de la table de representation, a partir d'informations contenues dans la chaTne 
de caracteres de la table de representation jugees pertinentes en fonction de la 
requete. 

Ainsi, pour visualiser le contenu des documents selectionnes, il n'est pas 
necessaire d'ouvrir ces derniers, puisque le contenu pertinent est directement extrait 

10 d'une meme table de representation pour I'ensemble des documents. 

De preference, lors de Tetape de selection, on compare la chaTne de 
caracteres predeterminee de la requete a la chaine de caracteres de la table de 
representation, notamment par balayage sequentiel de la table de representation, 
pour selectionner au moins un document parmi les documents stockes. 

15 Ainsi, la table de representation est egalement utilisee en tant que table 

d'indexation des documents stockes. Elle est done utilisee a la fois pour la 
visualisation du contenu des documents stockes et pour la recherche des ces 
documents a partir d'une requete comportant au moins une chaTne de caracteres 
predeterminee. Le balayage sequentiel de la chaTne de caracteres contenue dans la 

20 table de representation permet d'augmenter sensiblement I'efficacite de la recherche. 

De fagon optionnelle, au moins un document stocke etant de type courrier 
electronique et comportant plusieurs rubriques distinctes choisies parmi I'ensemble 
d'elements constitue d'une adresse d'un emetteur, d'une adresse d'un destinataire, 
d'un en-tete, d'un corps de message, et d'au moins une piece jointe, la chaTne de 

25 caracteres de la table de representation comporte au moins une partie des 
informations de type texte de chaque rubrique du document de type courrier 
electronique. 

Ainsi, on peut effectuer une recherche dans un ensemble de courriers 
electroniques stockes en tenant compte non seulement du contenu de ces courriers 
30 electroniques mais egalement eventuellement du contenu de pieces jointes a ces 
courriers electroniques ou d'autres parties de ces courriers electroniques, telles que 
les en-tete. 

Dans ce cas, pour le document de type courrier electronique, on peut balayer 
sequentiellement les informations concernant la piece jointe avant les informations 
35 concernant toute autre rubrique de ce document. 
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En effet, il arrive frequemment que les pieces jointes des courriers 
electroniques comportent les informations les plus pertinentes. 

De fagon optionnelle, la chaTne de caracteres de la table de representation 
comporte en outre pour chaque document stocke des informations d'identification de 
5 ce document. 

Ainsi, la visualisation et la recherche d'informations peuvent tenir compte de 
ces informations d'identification. 

De fagon optionnelle, on stocke en memoire au moins une partie du resultat 
de la recherche d'informations. 
10 De fagon optionnelle egalement, la partie du resultat de la recherche 

d'information stockee en memoire est stockee dans un fichier apte a comporter 
plusieurs resultats de plusieurs recherches. 

Dans un mode de realisation possible, lors de I'etape d'extraction du resultat, 
le precede de recherche d'informations comporte les etapes suivantes : 
15 - extraction des informations contenues dans la chaTne de caracteres de 

la table de representation jugees pertinentes en fonction de la requete, 

- transmission de ces informations vers un terminal distant par 
I'intermediaire d'un reseau de transmission de donnees, 

et I'affichage du resultat est realise par le terminal distant. 
20 Lors de I'etape de generation de la table de representation des documents 

stockes, on peut effectuer une conversion pour que tout caractere affichable d'une 
zone de type texte des documents stockes soit code : 

- soit sur un octet ; 

- soit a I'aide d'une balise inseree dans la table de representation et suivie 
25 d'un code sur un octet 

Dans un mode de realisation particulier de I'invention, lors de I'etape de 
generation de la table de representation, on insere dans la chaTne de caracteres de 
la table de representation au moins un ensemble de donnees delimite par au moins 
une balise pour completer les informations comprises dans cette chaine de 
30 caracteres. 

On peut ainsi imaginer inserer des donnees supplementaires, a I'aide de 
balises predefines pour ameliorer la visualisation de documents selectionnes ou pour 
augmenter la performance de la recherche d'informations. L'insertion de ces 
donnees supplementaires a I'aide de balises directement dans la chaTne de 
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caracteres de la table de representation permet de ne pas reduire les performances 
de la recherche d'informations. 

Ainsi, par exemple, I'ensemble de donnees comporte des donnees d'aide a la 
presentation de I'apergu, utilisees lors de I'etape d'extraction du resultat. 
5 Les donnees supplementaires sont par exemple des informations de mise en 

page permettant d'ameliorer la visualisation du contenu des documents selectionnes, 
notamment pour rester fidele a la mise en page du contenu tel qu'il etait presente 
dans Ie document lui-meme. 

L'ensemble de donnees peut egalement comporter des donnees d'aide a la 
10 selection d'au moins un document. 

On peut ainsi imaginer des donnees supplementaires inserees a I'aide de 
balises d'accentuations, de synonymies, d'ecriture phonetique, etc. Ainsi, ces 
donnees d'aide a la selection permettent de selectionner des documents comportant 
au moins une chaTne de caracteres voisine de la chaTne de caracteres predeterminee 
15 definie dans la requete. 

Un procede de recherche d'informations selon I'invention peut en outre 
comporter I'une ou plusieurs des caracteristiques suivantes : 

- chaque balise inseree dans la chaTne de caracteres de la table de 
representation comporte au moins un caractere d'echappement code 

20 sur un octet n'appartenant pas aux caracteres affichables figurant dans 

les 128 premieres positions de la table de codification ASCII, 

- on insere dans la chaTne de caracteres de la table de representation au 
moins une zone d'informations de type numerique codee sur un nombre 
predetermine d'octets delimite par au moins une balise d'indication de 

25 cette zone numerique, 

- la balise d'indication de la zone numerique est en outre une balise 
d'indication d'une convention de presentation de cette zone numerique, 

- les documents stockes etant repartis en differents types de documents, 
on definit pour chaque type de documents un ensemble de balises 

30 destinees a etre inserees dans la chaTne de caracteres de la table de 

representation, chaque balise de cet ensemble ayant une signification 
specifique a ce type de documents, 

- on insere dans la chaTne de caracteres de la table de representation au 
moins un ensemble de donnees exprimees en ecriture phonetique 

35 delimite par au moins une balise d'indication d'ecriture phonetique, 
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- on insere dans la chaTne de caracteres de la table de representation au 
moins une balise dedication qu'un nombre predetermine de caracteres 
suivant cette balise dans la chaTne de caracteres de la table de 
representation n'a pas a etre examine lors de I'etape de selection, 

- on insere dans la chaTne de caracteres de la table de representation au 
moins un ensemble de donnees correspondant a une analyse 
grammaticale d'une partie du contenu d'au moins un document stocke, 
delimite par au moins une balise d'indication d'analyse grammaticale, 

- on insere dans la chaTne de caracteres de la table de representation au 
moins un ensemble de donnees correspondant a des meta-donnees de 
description d'une partie du contenu d'au moins un document stocke, 
delimite par au moins une balise d'indication de meta-donnees, 

- on insere dans la chaTne de caracteres de la table de representation au 
moins une balise pour lancer un programme predetermine. 

En outre, un precede de recherche d'informations selon I'invention peut 
comporter la caracteristique selon laquelle : 

- chaque document stocke comportant des informations reparties dans 
plusieurs rubriques distinctes predetermines communes a tous les 
documents stockes, le resultat est affiche sous la forme d'un apergu 
comportant une zone d'apergu pour chaque rubrique distincte commune 
et comportant une liste de documents initialement selectionnes pour des 
informations qu'il contiennent jugees pertinentes en fonction de la 
recherche, 

- chaque zone d'apergu est desactivable, et 

- lorsqu'on desactive au moins une zone d'apergu, on maintient 
uniquement dans la liste affichee chaque document initialement 
selectionne pour des informations jugees pertinentes que ce document 
comporte dans au moins une rubrique correspondant a au moins une 
zone d'apergu qui reste activee. 

A I'aide de ces caracteristiques supplementaires, le procede de recherche 
d'informations permet a I'utilisateur d'effectuer un choix rapide dans un ensemble de 
documents selectionnes fournis en reponse a sa requete. 

L'invention concerne egalement un moteur de recherche d'informations dans 
des documents stockes dans une memoire electronique, comportant : 
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- des moyens de generation d'une table de representation des documents 
stockes, cette table comportant une chaTne de caracteres comprenant 
au moins une partie des informations des documents stockes, 

- des moyens de selection d'au moins un document parmi les documents 
5 stockes, a partir d'une requete comportant au moins une chaTne de 

caracteres predeterminee, 
caracterise en ce qu'il comporte des moyens d'extraction d'un resultat a I'aide de la 
table de representation, a partir d'informations contenues dans la chaTne de 
caracteres de la table de representation jugees pertinentes en fonction de la requete, 

10 en vue de I'affichage de ce resultat sous forme d'un apergu d'informations relatives 
au document selectionne. 

Enfin, I'invention concerne egalement un microprocesseur comportant des 
instructions programmees pour la mise en oeuvre d'un procede de recherche 
d'informations tel que defini precedemment. 

15 Un microprocesseur selon I'invention peut en outre comporter des moyens de 

stockage d'au moins une table dictionnaire comprenant un ensemble de mots dans 
une langue predeterminee, chaque mot etant associe dans cette table dictionnaire a 
des donnees d'analyse grammaticale. 

20 L'invention sera mieux comprise a I'aide de la description qui va suivre, 

donnee uniquement a titre d'exemple et faite en se referant aux dessins annexes 
dans lesquels : 

- la figure 1 represente schematiquement les etapes successives mises 
en ceuvre pour la generation d'une table de representation de 

25 documents stockes, dans un procede de recherche d'informations selon 

I'invention ; 

- la figure 2 represente schematiquement un exemple de chaTne de 
caracteres contenue dans la table de representation de la figure 1 ; 

- les figures 3 et 4 represented des fenetres de visualisation d'une 
30 selection de documents, affichees lors de la mise en oeuvre d'un mode 

de realisation particulier de ['invention ; et 

- la figure 5 represente schematiquement un dispositif comportant un 
microprocesseur maTtre et plusieurs coprocesseurs pour I'execution 
rapide d'un procede selon I'invention. 



35 
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Comme cela est represents sur la figure 1 , un precede selon l'invention utilise 
les elements suivants : 

- un ensemble de documents sur lesquels on est appele a effectuer des 
recherches, a savoir tous types de documents comportant du texte tels 

5 que des documents issus de traitements de texte, tableurs (notes Doc), 

ou des courriers electroniques (notes Mail) avec eventuellement leurs 
pieces jointes (notees Att, Zip), ces documents etant stockes soit sur un 
ordinateur a partir duquel sont executees les recherches, soit dans des 
reseaux internes d'entreprises, soit en dehors et accessibles via 
10 Internet, 

- un ensemble de tables, dites tables d'index, pour effectuer les 
recherches, et 

- un ensemble de tables de representation des documents stockes, dites 
tables des apergus, pour permettre un affichage rapide des resultats. 

15 Dans un mode prefere de invention, ce sont les memes tables qui sont 

utilisees a la fois pour effectuer la recherche et afficher les apergus, e'est-a-dire que 
ce sont les tables d'index qui sont utilisees en tant que tables de representation des 
documents stockes pour afficher les apergus. Par la suite ces tables seront appelees 
tables d'index et d'apergu (notees TIA). 

20 Un procede de recherche selon Pinvention necessite les etapes suivantes : 

- generation cTune table d'index et d'apergu (ie. une table de 
representation des documents stockes) comportant au moins une partie 
des informations des documents stockes, 

- recherche de documents par la selection d'au moins un document parmi 
25 les documents stockes, a partir d'une requete comportant au moins une 

chaine de caracteres predeterminee, 

- affichage d'un resultat sous forme d'un apergu d'informations relatives 
au(x) document(s) selectionne(s). 

30 Generation de la table d'index et d'apergu. 

La table d'index et d'apergu doit permettre une recherche rapide et un 
affichage rapide des apergus. Elle contient pour chaque document les deux types 
d'informations suivantes : 

- d'une part, le contenu integral ou partiel du document en format texte, 
35 non compresse, e'est-a-dire tout element qui peut etre affiche sous 
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forme de texte (dans le cas des courriers electroniques le contenu des 
documents attaches, qu'il soit sous forme compressee ou non, est 
egalement memorise dans la table d'index et d'apergu). 

- d'autre part, des elements d'identification du document tels que le nom 
5 du document, son objet, une date, sa longueur, des mots clefs, un 

chemin d'acces au document sur le disque, etc. (pour les courriers 
electroniques, le nom de I'emetteur sous forme d'adresse electronique 
et sous forme d'alias, le nom des destinataires, des copies, un nom de 
dossier, etc.). 

10 Tous les documents sont stockes les uns a la suite des autres soit dans une 

table d'index et d'apergu unique, soit dans plusieurs tables d'index et d'apergu, une 
par type de document par exemple (notees TIA-Doc TIA-Mail). Comme represents 
sur la figure 2, chaque document tel que Tia-doc est represents par un en-tete (note 
Tia-ld) suivi de tous les champs en format texte (note Tia-txt) susceptibles d'etre 

15 selectionnes lors d'une recherche d'informations. 

Dans un mode de realisation prefere de I'invention, on utilise un systeme de 
separateurs entre les differents documents, et entre les differents elements a 
I'interieur de chaque document afin de permettre un balayage rapide de la table 
20 d'index et d'apergu. 

L'en-tete Tia-ld regroupe des donnees de type numerique, ainsi que des 
textes sur lesquels on n'effectue pas de recherche : 

- un caractere separateur 'Oxff ou tout autre caractere qui ne peut pas 
figurer dans un fichier texte, situe au debut de l'en-tete, 

25 - la longueur de l'en-tete, 

- des donnees nurneriques telles que des longueur de blocs, des 
compteurs divers, 

- des donnees nurneriques susceptibles d'etre recherchees, appelees par 
la suite rubriques, telles que la longueur ou la date du document, 

30 - donnees alphabetiques qui ne font pas partie du champs des 

recherches (nom de machine, client, langue, tables de conversion, etc.). 
A la suite on trouve une partie texte (notee Tia-txt), comportant tous les 
elements sur lesquels sont effectues les recherches en format texte. II s'agit des 
contenus, des mots-clefs, des elements d'identification des documents. Ces 
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differents elements, appeles par la suite rubriques, sont stockes les uns a la suite 
des autres sous forme de texte, et ils sont separes par des caracteres separateurs. 

Dans un mode de realisation prefere de Pinvention, le contenu de chacune 
des pieces jointes des courriers electroniques est memorise dans une table d'index 
5 et d'apergu separee (notee TIA-Att) dite table d'index des pieces jointes et un 
document donne n'y figure qu'une seule fois, meme s'il appartient a plusieurs 
courriers electroniques ou a plusieurs fichiers compresses Zip eux-memes attaches 
en piece jointe. 

Les tables d'index et d'apergu sont generees puis regulierement mises a jour 
10 grace a des convertisseurs (notes Conv) qui, a partir des documents de depart 
(traitement de texte, tableurs, presentations, courriers electroniques ...) extraient 
tous les elements utiles pour la consultation de ces tables au moment de la 
recherche d'information, puis par la suite pour Paffichage des resultats sous forme 
d'apergu. 

15 

Recherche de documents. 

Hormis les logiciels de recherche documentaire ou moteurs de recherche sur 
Internet qui sont tres rapides puisqu'ils utilisent un thesaurus, en general, les logiciels 
de recherche sur ordinateur commencent par balayer une table d'index des fichiers 
20 sur le disque dur de I'ordinateur, comrnunement appelee FAT, ou une table 
equivalente qui permet de verifier si le nom du fichier, le type du fichier, sa longueur 
ou sa date satisfont aux criteres de recherche. Si c'est le cas, et dans le cas ou Ton 
doit effectuer la recherche sur des mots contenus dans les documents eux-memes, 
on balaie alors sequentiellement le contenu de chacun des documents qui 
25 correspondent a ces premiers criteres de recherche, pour verifier si les mots 
recherches figurent dans ce document. II s'avere que cette technique, consistant a 
explorer d'abord une table d'index, puis si necessaire, une seconde table contenant 
les textes eux-memes, est beaucoup plus lente que celle qui consiste a balayer 
sequentiellement une table d'index et d'apergu qui contient tous les contenus des 
30 documents ainsi qu'il est decrit ci-apres. 

Pour effectuer une recherche sur un ou plusieurs mots ou parties de mot, on 
balaie sequentiellement la table d'index et d'apergu comme suit : 

- quand on rencontre un separateur de document (egal a Oxff), on 
analyse les elements de I'en-tete Tia-id du document qui suit puis on se 
35 positionne sur le premier caractere de la zone Tia-txt correspondant 
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aux elements sur lesquels on veut effectuer la recherche en format texte 
dans ce document, 

- ensuite, on balaie la zone Tia-txt pour verifier si elle contient une partie 
ou la totalite des mots recherches. Si ce n'est pas le cas, on passe au 

5 document suivant, sinon le decompte du nombre de separateurs permet 

de savoir de quelle rubrique il s'agit, et grace aux donnees de I'en-tete 
precedemment charge, on dispose alors de tous les elements 
necessaires pour afficher le resultat de la recherche. 
Dans un mode de realisation prefere de I'invention, on commence par balayer 
10 la table d'index des pieces jointes TIA-Att et, chaque fois qu'une piece jointe 
comporte le ou les mots recherches, on memorise temporairement dans une table un 
identifiant de cette piece jointe, ce qui permet, par la suite, lors d'un balayage de la 
table des courriers electroniques TIA-Mail d'identifier les courriers qui ont des pieces 
jointes contenant les mots recherches. 
15 Dans le cas ou Ton recherche des informations dans des documents, a partir 

d'une requete comportant deux chaines de caracteres predeterminees, on peut 
proceder de deux manieres differentes : 

- sans duplication de documents : au cours d'une premiere phase on 
lance la recherche par balayage sur la totalite de la table de 

20 representation, et on memorise les adresses des documents qui 

contiennent la premiere des deux chaTnes de caracteres 
predeterminees, puis au cours d'une deuxieme phase, on lance la 
recherche par balayage des seuls documents dont on a garde I'adresse, 
pour selectionner ceux qui contiennent la seconde chatne de caracteres 

25 predeterminee ; ou 

- avec duplication de documents dans une nouvelle table secondaire dite 
« table secondaire de representation » : au cours d'une premiere phase 
on lance la recherche par balayage sur la totalite de la table de 
representation, et par duplication, on cree un nouvelle table secondaire 

30 de representation a partir des documents qui contiennent la premiere 

des deux chaTnes de caracteres predeterminees, puis au cours d'une 
deuxieme phase, on lance la recherche par balayage sur la nouvelle 
table secondaire de representation que Ton vient de creer de fagon a 
selectionner les documents qui contiennent aussi la seconde chaine de 

35 caracteres predeterminee. 
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Aff ichage d'un resultat. 

Les informations relatives aux documents selectionnes a Tissue de la 
recherche sont affichees sous la forme d'un tableau dit tableau des documents 
5 trouves, comportant une ou plusieurs lignes pour chaque document trouve et 
plusieurs colonnes correspondant chacune a une ou plusieurs desdites rubriques. 

Quand une ligne du tableau est selectionnee, par exemple un courrier 
electronique, le contenu Tia-txt de ce courrier est extrait de la table d'index et 
d'apergu TIA puis affiche dans une fenetre separee dite fenetre des apergus. Quand 
10 on passe a la ligne suivante du tableau, c'est le contenu de ce nouveau courrier qui 
est affiche dans la fenetre des apergus. Quand un courrier electronique Mail contient 
une ou plusieurs pieces jointes Att, le nom des pieces jointes est affiche a I'ecran, et 
qusnd on selectionne Tune d'elle, son contenu Tia-Att est extrait de la table des 
pieces jointes TIA-Att puis affiche dans la fenetre des apergus, sans qu'il soit 
15 necessaire d'executer un logiciel de presentation d'informations (traitement de texte, 
tableur, ...) qui lui est associe. 

Cette operation est extremement rapide puisque le contenu affiche fait partie 
de la table qui est exploree au cours de I'etape de recherche. 

Le fait de lancer au moins une recherche, puis de selectionner les seuls 
20 documents utiles en vue de traiter un probleme, represente une operation a la fois 
couteuse en temps et en competence, c'est-a-dire qu'une telle selection apporte de 
la valeur ajoutee par rapport a ['information brute de depart. Avec les techniques 
actuelles de courrier electronique, si Ton desire transmettre cette information a une 
autre personne, tous les documents vont etre transmis sous forme de pieces jointes 
25 a un courrier, et le destinataire sera amene a refaire une partie du travail de selection 
qui a deja ete realisee. 

C'est pourquoi il est preferable de lui transmettre un dossier appele par la 
suite « fichier-conteneur » (note File-Cont) qui contient non seulement les documents 
de depart (traitements de texte, tableurs, courriers electroniques, ...), nriais 
30 egalement tous les elements qui vont lui permettre de recuperer tout le travail de 
classement qui avait ete ajoute par I'auteur de la recherche initiale. 

Pour cela, il suffit de disposer d'un fichier-conteneur vers lequel, on peut avec 
une fonction « copier-coller », copier une ou plusieurs lignes du tableau des 
documents trouves. Grace a cette operation, on memorise dans une memoire 
35 permanente, toutes les informations relatives a chaque ligne du tableau, a savoir, le 
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contenu du document original avec sa mise en page, les dessins, images, sons, 
animations, eta, le texte Tia-txt necessaire pour afficher I'apergu, et toutes les 
informations que I'utilisateur de depart aura ajoutees a ces informations de depart 
pour en rendre la lecture plus rapide, et la presentation plus pertinente (par exemple 
5 les criteres de recherche, les modes de tri par colonnes, ou bien la fagon cTordonner 
les lignes du tableau des documents trouves, les statistiques sur la recherche ...). 

Ce fichier-conteneur, a I'instar d'une chemise de courrier, peut etre transmis a 
une autre personne soit sous forme de fichier via un reseau interne d'entreprise, soit 
sous forme de piece jointe attachee a un courrier electronique. Le destinataire pourra 
10 voir le contenu de ce fichier-conteneur, affiche sous forme de tableau, de maniere 
analogue au tableau des documents trouves, chaque ligne du fichier-conteneur 
correspondant a une ligne du tableau des documents trouves. De la meme maniere, 
grace a la fenetre pour I'affichage de I'apergu, il est possible aussi de voir rapidement 
le contenu des documents contenus dans le fichier-conteneur (courriers 
15 electroniques, traitement de texte, tableurs ...) sans avoir besoin d'ouvrir les 
documents avec les logiciels de presentation d'informations qui leur sont associes. 

Le fichier-conteneur peut a son tour etre modifie ou enrichi avec d'autres 
documents, puis transmis a d'autres destinataires. Lorsqu'il est utilise en tant que 
piece jointe attachee a un courrier electronique, il peut, a son tour, etre explore par le 
20 moteur de recherche, et les resultats de la recherche peuvent etre inseres dans un 
nouveau fichier-conteneur. 

Les informations relatives aux documents trouves a Tissue de la recherche 
sont affichees sous la forme d'un apergu comportant une zone d'apergu pour chaque 
rubrique et comportant une liste de documents initialement selectionnes pour des 
25 informations qu'ils contiennent jugees pertinentes en fonction de la recherche. 

Plus precisement, elles sont affichees par exemple sous la forme d'un tableau 
comportant un© ou plusieurs lignes pour chaque document selectionne et plusieurs 
colonnes correspondant chacune a une ou plusieurs desdites rubriques. 

La Figure 3 montre un exemple de resultat de recherche dans des courriers 
30 electroniques dans lequel les lignes L1, L2, L3 et L4 contiennent une sequence de 
caracteres recherchee « Paris ». 

Le titre de chaque colonne comporte a la fois I'intitule de la rubrique 
correspondante , ainsi qu'une case a cocher ou un dispositif equivalent fonctionnant 
comme suit : 
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- si la case est cochee, la colonne est activee et toutes les lignes qui 
comportent le ou les mots recherches dans la rubrique correspondant a 
cette colonne, sont affichees, 

- dans le cas contraire, sont masquees les lignes qui contiennent le ou les 
5 mots recherches qui figurent uniquement dans la rubrique 

correspondant a la colonne. 
Dans I'exemple de la figure 3, parmi les lignes qui contiennent les 
informations pertinentes, a savoir la sequence « Paris », on affiche seulement les 
lignes qui comportent la sequence recherchee dans au moins une des colonnes 
10 activees, ce qui est different du dispositif classique d'onglet consistant a afficher 
seulement les lignes qui comportent une sequence recherchee dans une rubrique 
donnee. 

De la sorte, simplement en cochant ou decochant une colonne, il est possible 
de n'afficher qu'une partie des lignes correspondant au resultat de la recherche. 
15 Dans la figure 4, la colonne C3 est desactivee pour masquer tous les 

courriers pour lesquels « paris » etait simplement en copie : la ligne L2 n'apparaTt 
plus, par contre la ligne L3 est toujours affichee car « paris » apparaTt dans la 
colonne C2 de la ligne L3. 

20 Neanmoins, le procede decrit precedemment peut etre encore ameliore pour 

repondre a plusieurs problemes. 

L'affichage dans la fenetre d'apergu ne fait apparaitre que le texte brut d'un 

document selectionne, exactement comme les courriers electroniques en format brut, 

c'est-a-dire sans ses elements de mise en page, ni couleur, ni mots soulignes ou 
25 affiches en gras, alors qu'il peut etre souhaitable d'afficher ces apergus avec une 

presentation amelioree, proche ou equivalente a la presentation initiate du document 

selectionne, 

Par ailleurs, ce procede ne donne pas toute satisfaction quand on fait des 
recherches sur des mots avec des accents : en effet si on cherche le mot 
30 «ameliore», les documents contenant seulement «ameliore» ne seront pas detectes, 

Dans certains cas, on \/oudrait egalement, trouver des documents a partir 
d'un synonyme, ou d'une notion equivalente, par exemple «financer» au lieu de 
« financement », 

Dans d'autres cas encore, quand il s'agit de montants, on voudrait pouvoir 
35 trouver un document qui contient «1.000» quand on recherche «1000», ou ('inverse, 
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ceci quelle que soit la convention d'ecriture (les anglo-saxons utilisent le point a la 
place de la virgule). De maniere analogue, on voudrait faire facilement la difference 
entre le nombre 1000, et un nombre qui contient les memes chiffres comme 10001, 
ou entre un nombre qui correspond a un montant ou un code article ou un numero de 
5 compte. 

Dans d'autres cas enfin, on voudrait pouvoir reconstituer le document texte 
de depart a partir de la table de representation des documents stockes, par exemple 
reconstituer un document genere en format «.rtf» ou un courrier electronique en 
format «.html», de fa<?on a reduire la place occupee sur disque, ou pour ne travailler 
10 que sur une information unique au lieu d'une replication ajoutee a une information 
originale, ce qui est beaucoup plus simple et sur pour tous les traitements 
informatiques. 

D'une maniere generate, il est utile d'avoir dans la table de representation des 
documents stockes, sous une forme ou sous une autre : 
15 - tous les elements pour reconstituer reformation de depart, 

- les elements permettant de supporter les approximations dues a 
I'orthographe, aux accents, aux symboles monetaires, aux notions 
d'arrondis, et permettant d'utiliser des techniques connues d'analyse 
automatique de documents, 
20 - les elements relatifs a la nature d'une information (montant, compteurs, 

numero de compte, code d'article, notion de pointeur vers un element 
parent ou enfant, etc.) pour pouvoir utiliser ce genre de table dans des 
applications sans rapport avec la recherche documentaire. 
Pour un certain nombre d'informations complementaires, la meilleure solution 
25 consiste a ajouter toute une serie de champs a cote du texte brut. 

Par contre, pour d'autres il est preferable d'utiliser un systeme de codification 
dans lequel les informations sont intimernent liees au texte lui-meme, grace a un 
systeme de balises analogue a celui que Ton trouve dans des codages comme les 
formats « .html » ou « .rtf ». 
30 Par definition, une balise comporte au moins un caractere d'echappement, de 

preference en dehors des caracteres affichables figurant dans les 128 premieres 
positions de la table de codification ASCII, tel que 0x1 (notation hexadecimale), 0x2, 
0x80, ... (ce caractere contient a la fois une notion de type de balise et une notion de 
longueur de la balise). De fagon optionnelle, elle peut comporter en outre un ou 
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plusieurs caracteres, de preference differents du zero 0x0, qui est traditionnellement 
reserve a la fin d'une chaine de caracteres. 

Pour repondre aux differents types de problemes precites, on utilise quatre 
types de balises appelees respectivement : 
5 - balises de mise en forme, 

- balises de recherche avancee, 

- balises de lancement de processus, 

- balises de formatage ou d'alerte. 

Pour simplifier la presentation, on a retenu ce decoupage par categorie, mais 
10 selon le type d'utilisation, on pourra faire appel a tel ou tel type de balise. 



Balises de mise en forme. 

Ces balises sont utilisees pour inserer d&s informations de mise en page. Par 
exemple pour afficher le mot «horizontal» on utilisera la sequence : 
15 « h-o-0x8-G-r-i-z-0x8-S-o-Ox8~g-n-t -0x8-s-a -I », 

dans laquelle: 

- le caractere d'echappement « 0x8 » signifie « balise de debut ou fin » 
avec une longueur de balise de 2 caracteres (caractere d'echappement 
compris), 

20 - le caractere suivant « G » correspond a « debut de gras », « g » a « fin 

de gras », « S » a « debut de souligne », « s » a « fin de souligne » (les 
caracteres « - » ont ete ajoutes pouir faciliter la comprehension, mais ne 
figurent pas dans la chaine de caracteres de la table de representation 
des documents stockes). 
25 Des balises de ce type peuvent aussi etre utilisees pour changer la police de 

caracteres, la taille de la police, indenter des paragraphes, changer I'interligne, 
indiquer un changement de page, etc. 

De la sorte, un ensemble de balises utilisant 2, 3 ou davantage de caracteres, 
permet en partant d'un document MS Word ou Acrobat Reader Pdf, de creer une 
30 sequence de caracteres qui permet a la fois : 

- un balayage rapide, comme cela est precise ci-apres, 

- la generation d'un fichier en format « rtf » sensiblement equivalent au 
document de depart, ce qui evite dans la majorite des cas de conserver 
a la fois la table des apergus et le fichier MS Word de depart. 
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On notera que MS Word, Visual C++, WinSdk, MSN, rtf sont des formats et 
marques deposees par Microsoft Inc. Acrobat Reader Pdf est une marque deposee 
par Adobe Inc. 



5 Balises de recherche avancee. 

1) Utilisation de balises pour ['accentuation. 

II est utile de pouvoir effectuer une recherche sur un mot en tenant compte 
des accents. Par exemple, si on lance une recherche avec le mot « andre », il est 
utile de pouvoir retrouver les documents qui contiennent le mot sans accent, par 
10 exemple une adresse de courrier electronique telle que « andre.dupont@xxx.com », 
ou bien avec une faute d'orthographe : «andre». 

On peut coder cette information de la maniere suivante : 
« a-n-d-r-e-0x7-e-0x7-e », 
la balise « 0x7 » signifiant que le caractere qui suit (« e » ou « e ») est equivalent au 
15 precedent (« e »). 

2) Utilisation de balises pour repeter n fois le meme caractere. 

II peut etre egalement utile de comparer 2 chaines d^ caracteres comportant 
des espaces, comme dans I'exemple suivant : 

« moteur de recherche » et « moteur de recherche » . 
20 On peut resoudre le probleme avec des balises de la maniere suivante : 

d'abord, dans la chaine a rechercher, on remplace les sequences d'espaces, par un 
seul espace ou mieux par le caractere non affichable 0x1 , et dans la chaine a 
balayer, on effectue la conversion suivante : 

- pour les sequences d'espaces inferieures a 6 caracteres, on utilise des 
25 balises utilisant un seul caractere, a savoir 0>c1 , 0x2, 0x3, 0x4, 0x5 

(sans autre caractere a la suite) ce qui permet avec un seul caractere 
de resoudre ce probleme tres frequent quand un texte est affiche avec 
la justification a droite et a gauche. 

- Pour les sequences plus longues, on peut utiliser une convention 
30 classique telle que : 0x6 - longueur de la sequence - caractere repete. 

3) Utilisation de balises pour accelerer I'analyse de contenu. 

Quand on veut analyser un texte, il faut commencer par faire un certain 
nombre d'operations du type analyse grammaticale, et memo riser le resultat de cette 
analyse avec des balises, afin d'obtenir des verbes a I'infinitif, des noms au singulier, 
35 des articles, des conjonctions, etc. 
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Par exemple : « le printemps est chaud et sec» peut etre code : 
«Ox1-l-e» 0x1 = article 

«0x2~p-r-i-n-t-e-m-p-s» 0x2 = nom commun singulier 
«0x4-P-3-e-t-r-e» 0x4-P~3 = verbe Present Seme personne 

5 «0x7-c-h-a-u-d» 0x7 = adjectif singulier 

«0x8-e-t» 0x8 = conjonction 

Dans la mesure ou le programme de balayage d'une table peut etre rendu 
extremement rapide comme on le verra plus loin, on peut utiliser une table dite 
« table dictionnaire », ou un ensemble de tables contenant tous les mots possibles 
10 dans un langue donnee pour verifier que chaque mot d'un document existe, et 
effectuer son analyse grammaticale. 

Une telle table dictionnaire comporterait une sequence de blocs comportant 
un ou deux elements selon la complexity du mot a analyser. Par exemple : 
«0x1-l-e» 0x1 = article 

15 «0x2-p-r-i-n-t-e-m-p-s» 0x2 = nom commun singulier 

«c-h-e~v~a-u-x-0x3-c-h-e-v-a l» 0x3 = nom commun pluriel 
«e-s-t-0x4~P-3-e-t-r-e» 0x4-P-3 = verbe Present Seme pers. 

«0x7-c-h-a-u-d» 0x7 = adjectif singulier 

Pour les verbes reguliers on peut avoir : 
20 - soit toutes les formes possibles de conjugaisons, comme 

«i-n-v-e-n-t-e-r-a-s-0x4-F-2--i-n-v-e-n~t-e-r» ] futur a la 2eme personne, 
- soit une forme plus compacte associee a une regie de conjugaison, 
comme 

«i-n-v-e-n-t-0x5-R-1--i-n-v-e-n-t-e-r», verbe regulierdu premier groupe. 

25 De la sorte, la table de representation sera enrichie avec des balises et des 

mots permettant d'effectuer plus facilement les autres operations d'analyse de 
contenu, cet enrichissement pouvant s'effectuer au moment de Is creation d'un 
element de la table de representation, ou bien au moment de la creation d'une 
« table secondaire des representations ». 

30 Par ailleurs, quand on veut analyser le contenu d'un document de type texte, 

I'ordre des mots est important, comme dans I'exemple « location de voiture » ou 
« voiture de location ». Ceci necessite parfois de balayer le texte plusieurs fois. 

Plutot que de relancer le balayage a partir d'une adresse* que Ton aura 
prealablement stockee, une autre solution, comme on I'a vu plus hiaut, consiste a 

35 creer une table secondaire de representation et a dupliquer le document. Pour 
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faciliter Tanalyse, il peut etre judicieux, au moment de la duplication, d'inserer des 
balises analogues a celles decrites ci-dessus pour faciliter ('analyse du contenu. 

On peut egalement imaginer un systeme ou Ton genere tout un ensemble de 
tables secondaires de representation, soit pour un document, soit pour un ensemble 
5 de documents qui contiennent une chaine de caracteres predeterminee ou des 
balises d'un type donne. 

4) Utilisation de balises pour des meta-donnees. 

Les moteurs de recherche sur Internet en general procedent de la maniere 
10 suivante. 

Quand un nouveau document doit etre ajoute a une base de donnees, on 
commence par analyser son contenu en utilisant differentes techniques, dont une 
consiste a effectuer I'analyse grammatical, comme decrit ci-dessus ; ensuite le 
resultat de cette analyse consiste a creer une liste de mots-clefs ou meta-donnees 
15 attachees a ce document. Ce sont ces meta-donnees qui sont placees dans ce que 
Ton appelle communement une liste inverse, et qui sont recherchees quand un 
utilisateur fournit plusieurs criteres pour rechercher un document. 

Une meta-donnee de ce type peut-etre codee au moyen d'un systeme de 
balise comme dans les exemples ci-dessous : 
20 «0x14-2-3-e-t-a-l-o-n». 

La balise 0x14 et les 2 caracteres suivants (2-3) permettent de designer le 
mot et de lui associer une notion telle que « 23 = animal ». 

«0x1 5-1 -3-r-e-f-i-n-a-n-c-e-m-e-n-t-0x1 5-f-i-n-a-n-c-e-r». 
La balise 0x15 est d'une nature voisine et permet en plus d'associer une 
25 notion telle que Taction de financer. 

De la sorte lors de la creation initiale, ou bien par la suite lors de la creation 
d 5 une « table secondaire des representations » il est possible d'ajouter a un 
document toute une serie de meta-donnees pour permettre une recherche 
intelligente sur le contenu. 
30 5) Utilisation de balises pour I'ecriture phonetique. 

Si on veut interfacer la recherche avec un module de reconnaissance vocale, 
ou pour faciliter I'analyse automatique, il est utile de recourir a la phonetique. Dans 
une langue donnee, il y a en general une equivalence entre les mots et la fagon de 
les prononcer, mais ce n'est pas toujours le cas comme le mot « parent » selon qu'il 
35 s'agit du «pere» ou du verbe «parer». De la meme maniere, au meme sons peuvent 
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etre associees plusieurs orthographies particulierement avec les noms propres 
comme « Durand » et « Durant ». Pour lever ce dilemme, apres chaque mot qui pose 
un probieme on peut placer une balise pour indiquer I'equivalent en ecriture 
phonetique. 

5 6) Utilisation de balises pour les montants. 

Selon la langue, 1000 unites monetaires s'ecrit de maniere differente : en 
frangais, «1.000,00», ou «1.000», en anglais «1,000.00», etc. 

Selon que I'utilisateur est frangais ou americain, il lancera sa recherche avec 
« 1.000,00 » ou « 1,000.00 » ou tout simplement « 1000 ». On peut utiliser un 
10 systeme de balises qui tient compte de cette particularity : 

« Ox3-1-0-0-0-0-0-Ox4-1-.-0-0-0-,-0-0-Ox5-1-,-0-0-0-.-0-0-Ox6». 
La balise 0x3 indique que le champ suivant est un montant exprime en 
centimes. 

La balise 0x4 indique que le champ suivant est un montant affiche avec les 
15 conventions europeennes. 

La balise 0x5 indique que le champ suivant est un montant affiche avec les 
conventions americaines. 

La balise 0x6 indique la fin de la zone relative a ce montant. 
On peut aussi ajouter une balise pour indiquer quelle convention est utilisee 
20 dans le document de depart. 

Ce systeme de balises permet de restituer la formulation de depart dans le 
document, et de retrouver ce montant quel que soit Putilisateur qui lance une 
recherche. 

7) Utilisation de balises pour les dates et heures. 

25 On resout de fagon analogue le probieme des dates et des heures qui sont 

affichees de multiples manieres selon la langue, le fuseau horaire, le fait d'afficher 
sans I'heure, etc. 

8) Utilisation de balises pour les nombres. 

D'une maniere analogue, on peut utiliser une balise telle que 0x1 C pour 
30 signifier que les quatre caracteres suivants correspondent a un nombre entier code 
en binaire sur 32 bits. Dans ce cas, la zone a comparer ne sera pas une chaine de 
caracteres, mais un nombre entier code sur 32 bits. II faut noter que dans ce cas 
precis, chacun des quatre caracteres qui suivent la balise peut prendre une valeur 
quelconque, y compris le zero binaire qui habituellement signale la fin d'une chaine 
35 de caracteres. 
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Ce mode de codification peut etre utilise pour tout type d'information 
numerique, signee ou non, sur 16, 64, 128 bits, en virgule flottante, etc. La 
comparaison entre deux zones pourra consister a tester I'egalite entre ces deux 
zones, mais d'une maniere generale, on pourra effectuer toutes les operations 
5 logiques entre deux zones numeriques (plus petit, plus grand, ou logique, ou exclusif, 
etc.). 

II faut noter egalement que s'agissant de montants, selon les cas, on 
memorisera I'information : 

- soit sous forme plutot texte, comme explique plus haut. 
10 - soit sous forme plutot numerique, c'est-a-dire : 

■ une balise indiquant une monnaie (dollar, euro, ou autre), 

■ une balise precisant la convention d'affichage (europeenne ou 
anglo-saxonne), 

■ une balise precedant un entier code sur 32 bits, 

15 ■ enfin un nombre exprimant le montant en centimes. 

II va de soi que pour les cas les plus frequents, une seule balise peut 
rem placer les 3 balises decrites ci-dessus. 

Dans le cas ou I'information est sous forme dite numerique, il faudra 
commencer par convertir la requete de I'utilisateur d'un format texte vers un format 
20 numerique, de fagon a pouvoir effectuer la comparaison a grande vitesse, caractere 
par caractere. 

Un montant est une zone dite de type numerique, mais il y en a d'autres. 
Ainsi, il en est de merne pour les dates qui peuvent etre memorisees soit sous forme 
de texte, soit sous forme d'un nombre, selon les conventions couramment utilisees 
25 en informatique. Des balises peuvent preciser le mode d'affichage, le fait qu'il 
s'agisse d'une date exprimee en heure locale, ou mieux en temps universe!. 

Balises de lancement de processus. 

1) Utilisation de balises pour declencher un processus d'analvse. 
30 Dans un document, il y a des mots qui ont signification plus importante que 

d'autres si on veut effectuer une analyse de son contenu. On peut faire ressortir ces 
mots par un systeme de balises du type : 

« 0x1 6-2-3-f-a-i-l~l-i-t-e-0x1 6 », 
la balise 0x16 et les 2 caracteres suivants (2-3) permettant a la fois de designer le 
35 mot et de lui associer une notion telle que « 23 = juridique ». 
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Une correlation entre les criteres fournis par Putilisateur et la presence de 
certains mots dans le document peut activer un processus d'analyse du contenu. 
2) Utilisation de balises pour lancer d'autres programmes. 
Par exemple si on veut proteger une information sensible, on peut utiliser une 
5 balise telle que : 

« 0x1 7-p-a-s~s-w-o-r-d-1 -0x1 7 », 
la balise 0x17 encadrant I'appel a une authentification de type 1, selon le 
resultat de laquelle le bloc d'informations en cours est ignore ou analyse. 

D'une maniere generate, il s'agit d'un moyen de lancer une sequence 
10 d'instructions qui sont executees dans le meme programme, ou bien dans un autre 
programme residant sur la meme machine ou sur une machine distante, permettant 
un mode de travail soit cooperatif, soit en parallele, selon les techniques habituelles 
de programmation. 



15 Balises de Formatage ou d'alerte. 

On peut considerer qu'une chaine de caracteres peut contenir a la fois un 
texte a afficher, des informations pour afficher celui-ci avec une presentation voisine 
de celle offerte par les outils de traitement de texte, des element pour faciliter la 
recherche, des informations pour lancer des programmes. 

20 Certains mots reperes par des balises, peuvent etre saisis a la volee, et 

dupliques dans une zone de memoire en vue d'un traitement ulterieur pour analyser 
le contenu et permettre une recherche plus pertinente. 

D'une maniere plus generate, on pourra utiliser des balises pour donner des 
significations particulieres a certains champs, tels qu'un numero de compte, une 

25 quantite, un montant, une date, un code d'article, un pointeur vers un objet, une 
notion de hierarchie, de parent, enfant, frere, c'est-a-dire toutes les notions que Ton 
peut trouver dans une table ou un fichier dans un ordinateur contenant une 
succession d'enregistrements de type differents. Par « enregistrement », on entend 
ici document stocke dans I'ordinateur. 

30 On peut utiliser tout un jeu de balises pour un enregistrement tel qu'une 

operation bancaire, puis utiliser des balises avec les merries valeurs exprimees en 
binaire, mais avec une signification completement differente pour un enregistrement 
correspondant a un stock de marchandises. 
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Ainsi, chaque type d'enregistrement, c'est-a-dire chaque type de document 
stocke dans I'ordinateur, peut etre associe a un jeu de balises a significations 
specif iques. 

Au cours d'une operation complexe, par exemple pour editer un releve de 
5 compte bancaire, faisant intervenir plusieurs informations telles que le nom et 
I'adresse du titulaire du compte bancaire, la liste de tous les mouvements d'une 
periode, on peut etre amene a consulter plusieurs tables differentes de 
representation des documents stockes, et la signification des balises pourra changer 
au cours des differentes phases de cette operation. 

1 0 Une fagon de resoudre Ie probleme, est de memoriser, soit au niveau de la 

table de representation elle-meme, soit au niveau de chaque enregistrement de la 
table de representation, une information (ou un code) permettant de connaitre la 
signification de tout le jeu de balises qui doit etre utilise a un moment donne. 

On peut aussi utiliser une balise suivie d'une zone numerique sur 32 bits 

15 correspondant a une longueur L pour indiquer que les L caracteres suivants 
correspondent a une zone sans texte, par exemple une image dans tel ou tel format, 
un son, une sequence d'image, une zone compressee ou codee en format « .zip », 
une sequence d'octets, un tableau de type MS Excel, et de maniere generate une 
sequence de caracteres sur laquelle on n'effectue pas de recherche. 

20 On peut aussi utiliser des balises pour delimiter differentes zones de codage. 

Dans le monde occidental, et particulierement chez les anglo-saxons, la 
quasi-totalite de I'information affichable est codee sur un octet. Par centre pour des 
langues telles que I'arabe ou le chinois, ou pour quelques caracteres tels que I'Euro, 
on utilise la notation Unicode. 

25 En Occident, on peut supposer que par defaut, le codage se fait sur un seul 

caractere, sauf entre une balise de debut et une balise de fin de codage Unicode. 

Dans le meme esprit, sur 8 bits, c'est-a-dire un octet, on peut coder les 160 
caracteres de I'alphabet latin (10 chiffres, 2x26 lettres, 2x6x4 voyelles accentuees et 
environ 50 caracteres speciaux) et avoir une centaine de balises. La codification 

30 Unicode peut-etre etre remplacee par une autre codification plus compacte et mieux 
adaptee a cette utilisation. 

S'il y a trop de combinaisons pour coder a la fois les caracteres a afficher et 
les balises sur un seul caractere, c'est-a-dire plus de 256 possibilites pour un 
caractere sur 8 bits, on peut utiliser, pour les caracteres les moins frequents, par 

35 exemple les fractions, une balise indiquant que le caractere suivant appartient a un 
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deuxieme jeu de caracteres ; il faut noter que ce systeme est different du systeme 
Unicode, qui lui utilise systematiquement 2 caracteres, ce qui permet 65.536 
possibilites, alors que le present systeme ne permet que 256 caracteres possibles 
derriere une balise de ce type. 

5 

Une table de representation telle que decrite precedemment, c'est-a-dire 
incluant des balises, peut etre utilisee de plusieurs manieres : 

- lancer une recherche a Pidentique : on ignore tous les champs designes 
par les balises : c'est par exemple un mode d'utilisation par defaut ; 

10 - afficher un document dans une fenetre d'apergu, ou bien reconstituer le 

document original : pour cela, on ignorera toutes les balises, sauf celles 
de mise en forme ; 

- lancer une recherche plus sophistiquee, avec une capacite 
d'interpretation du document : on utilisera toutes les balises de 

15 recherche avancee, y compris les balises de lancement de processus 

utiles pour mettre en oeuvre les techniques connues les plus avancees 
dans ce domaine ; 

- enfin, dans un domaine completement different, grace a I'ensemble de 
ces techniques, utiliser cette table comme une veritable base de 

20 donnees avec des champs de toutes natures, des zones de type 

numerique, stockees sous forme decimale ou hexadecimale, des 
pointeurs, des zones pour lancer des processus, etc. 



Toutes ces possibilites peuvent etre regroupees en un petit jeu d'instructions 
25 appelees couramment API (de I'anglais « Application Program Interface »). 

On trouvera ci-apres un exemple d'une liste non limitative de ces API, a 

savoir : 

- StrStrEx, par analogie avec la fonction « strstr » qui existe dans la 
plupart des langages de programmation, et qui consiste a rechercher 

30 dans une chaTne de caracteres, la prochaine occurrence d'une sous 

chaTne donnee ; 

- ExtractEdit, pour extraire d'une chaTne, le texte a editer avec les seules 
balises relatives a la mise en page (le cas ou on veut le texte brut sans 
aucune balise est un cas particulier de celui-ci) ; 
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- ExtractData, pour extraire les donnees d'une chaine vers un ensemble 
de champs selon les formats utilises habituellement en informatique 
(entier sur 32 bits ou 64 bits, format en virgule flottante, etc.) ; 

- MakeEditStr, operation inverse de ExtractEdit pour convertir un 
5 ensemble de documents texte (tels que MS Word, rtf, etc., ou des 

courriers electroniques en format brut ou html) en une table de 
representation avec des balises de mise en forme, et eventuellement 
celles permettant une recherche a partir de Panalyse du contenu ; 

- MakeDataStr, operation inverse de ExtractData pour convertir chaque 
10 enregistrement d'un fichier en element d'une table de representation 

avec des balises permettant I'acces rapide a un element au moyen de 
criteres ; 

- StrStrExMultiple, faisant appel plusieurs fois a la fonction elementaire 
StrStrEx, et permettant de traiter plusieurs chaTnes de caracteres 

15 contenues dans un meme document appele document multiple afin d'y 

retrouver une ou plusieurs sous chaTnes ; 

- InitStrStrEx, pour definir la liste de toutes les balises, avec : 

■ leur valeur (caractere d'echappement + premier caractere + 
deuxieme caractere, ...), 
20 ■ leur signification et leur mode de fonctionnement dans les 

differents types d'utilisation (recherche, extraction pour edition, 
extraction pour conversion, lancement de traitements, ...), et d'une 
maniere generale tous les elements parametrables ou ceux 
necessaires pour relier les balises a des programmes externes. 

25 

Description de la fonction StrStrEx et mode de fonctionnement. 

LPCSTR StrStrEx ( LPCSTR ptrStart, 

LPCSTR ptrSubChain, 
UINT uiParameter, 
30 STRSTREX *strExtended) 

dans laquelle : 

LPCSTR ptrStart est le point depart dans la chaine a explorer, 
LPCSTR ptrSubChain la sous chaTne recherchee. 
UINT uiParameter le mode de balayage, 
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STRSTREX *strExtended I'adresse d'une structure permettant de specifier 

des donnees, des formats de conversion ou de 
communiquer avec d'autres processus. 

Le mode de balayage est un ensemble de 32 bits ou plus qui, combines, 
5 precisent comment on doit interpreter la chame de caracteres. Par exemple : 

- STREX_SKIP_BAL = -1 Ignorer la casse et toutes les 

balises, 

- STREXJ/VITH_CASE =1 Respecter la casse, 

- STREX_SKIP_EDIT = 2 Ignorer les balises relatives a la 
10 mise en page, 

- STREX_SKI PREANALYSIS = 4 Ignorer les balises de recherche 

avancee, 

- STREX_SKIPJPROCESS = 8 Ignorer les lancements de 

processus, 

15 - STREX_S Kl P_FO R MAT =16 Ignorer les balises de formatage, 

- STREX_ FASTJDUPLIC = 32 Dupliquer certains mots a la volee, 

- STREX_ ANALYSIS_1 = 64 Utiliser les balises de recherche 

avancee type 1 , 

- STREX_ ANALYSIS_2 = 128 Utiliser les balises de recherche 
20 avancee type 2, 

- etc. 

STRSTREX *strExtended est I'adresse d'une structure permettant de 
specifier des donnees, des formats de conversion ou de communiquer avec d'autres 
processus, comme le fait la structure BROWSEINFO utilisee par I'API connue 
25 SHBrowseForFolder (cf. le WinSdk de Visual C++). 

Par exemple, la commande « 0x1 7-p-a-s-s~w-o-r-d-1 -0x17 » peut lancer un 
programme d'authentification designe dans une commande de type «Callback». 

La valeur retournee est : 

- un pointeur sur la prochaine occurrence trouvee, 
30 - 0x0 si aucune chaine n'a ete trouvee, ou 

- une valeur symbolique en cas d'erreur. 

Pour etre performante, la fonction StrStrEx doit utiliser au mieux les 
caracteristiques des microprocesseurs modernes et les possibilites offertes par la 
technologie des composants electroniques. En particulier, il est exclus d'utiliser telles 
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quelles certaines fonctions fournies dans les bibliotheques du langage de 
programmation C. 

On notera que i'objectif n'est pas d'avoir un code compact, mais d'executer le 
moins destructions possible pour les cas statistiquement les plus frequents. 
5 On trouvera en annexe un exemple de code ecrit en langage C pour une 

partie de la fonction StrStrEx. 

Description de la fonction ExtractEdit et mode de fonctionnement. 

int ExtractEdit ( LPCSTR ptrStart, 
10 LPSTR *ptrEditChain, 

UINT uiParameter 
STRSTREX_ED *strEditlnfo) 

dans laquelle : 

LPCSTR ptrStart est I'adresse de la chame a extraire, 
15 LPSTR *ptrEditChain I'adresse d'un pointeur sur la chame a editer, 

UINT uiParameter precise le mode d'edition (aucune mise en page, 

mise en page pour afficheur, mise en page pour 
restaurer un document MS Word en format rtf, 
etc.), 

20 STRSTREX_ED *strEditlnfo I'adresse d'une structure pour communiquer plus 

d'informations sur le mode de conversion et le 
format. 

La fonction ExtractEdit utilise une grande partie des elements de StrStrEx. 

25 Description de la fonction ExtractData et mode de fonctionnement. 

int ExtractData ( LPCSTR ptrStart, 

void *ptrExtractedData, 
STRSTREX JEXTRACT *strExtractlnfo) 

dans laquelle: 

30 LPCSTR ptrStart est I'adresse de la chame a extraire, 

LPSTR *ptrExtractedData I'adresse d'un pointeur sur I'objet a creer, 
STRSTREX__ EXTRACT *strExtractlnfo I'adresse d'une structure pour 

communiquer le format d'objet a fabriquer, et 
tous les traitements necessaires pour effectuer 
35 la conversion. 
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La fonction ExtractData utilise une grande partie des elements de StrStrEx. 

Les fonctions MakeEditStr, et makeDataStr sont essentiellement des 
programmes de conversion qui ne posent pas de probleme particulier pour un 
5 homme de Part. 

Description de la fonction StrStrExMultiple et mode de fonctionnement. 

LPCSTR StrStrExMultiple ( LPCSTR ptrStart, 

LPCSTR *ptrSubChain, 
1 0 STRSTREX JMUL *strExtended) 
dans laquelle: 

LPCSTR ptrStart est le point de depart dans la chaTne a explorer, 

LPCSTR *ptrSubChain un ensemble de sous chaines recherchees, 
STRSTREXJVIUL *strExtended I'adresse d'une structure permettant de 
15 specifier les parametres de cette fonction. 

La valeur retournee est : 

- un pointeur sur la prochaine occurrence trouvee, 

- 0x0 si aucune chaTne n'a ete trouvee, ou 

- une valeur symbolique en cas d'erreur. 

20 La fonction StrStrExMultiple permet de traiter le cas d'un document multiple 

tel qu'un courrier electronique. 

Un courrier electronique regroupe des informations sur I'emetteur, les 
destinataires, les personnes en copie, Pobjet, le contenu du courrier electronique, 
ainsi que d'autres informations, et ce courrier electronique se trouve stocke dans la 

25 table des apergus sous la forme d'un en-tete, suivi des differentes chaines emetteur, 
destinataires, personnes en copie, objet et contenu du courrier electronique, ledit en- 
tete comportant lui-meme une balise de debut, et lesdites autres informations. 

En utilisant plusieurs fois la fonction elementaire StrStrEx, il est possible de 
determiner si une ou plusieurs chaTnes du document multiple contiennent une sous 

30 chaTne recherchee, et dans quelle chaine. II est possible de determiner egalement si 
le document multiple contient non pas une seule sous chaTne, mais plusieurs sous 
chaTnes recherchees. 



Description de la fonction InitStrStrEx et mode de fonctionnement. 



WO 2005/101240 



PCT/FR2005/000659 



28 

int InitStrStrEx ( STRSTREX_BALISES *strBa!ises, 
STRSTREX_PROCESS *strProcess, 
STRSTREX_CONV_CHAR *strConvChar, 
STRSTREX_MISC *strMisc) 

5 clans laquelle: 

STRSTREX_BALiSES *strBalises est I'adresse d'une structure specifiant les 
valeurs des echappements, de chacune des balises, leur longueur, categorie (mise 
page...) leur action, les liaisons avec les traitements, etc., 

STRSTREX_PROCESS *strProcess est I'adresse d'une structure specifiant 
10 l&s informations pour effectuer la resolution des liens avec les traitements externes 
ou internes utilises par les StrStrEx et les autres API decrites ci-dessus, 

STRSTREX_CONV_CHAR *strConvChar est I'adresse d'une structure 
specifiant la liste des caracteres utilises, Unicode, Ascii, etc, les tables de 
conversions entre ces codifications, les regies de passage de majuscule a minuscule, 
15 etc., 

STRSTREXJVIISC *strMisc est I'adresse d'une structure specifiant les autres 
donnees telles que version, langues, langages de programmation, systeme 
d 'exploitation (Windows, Unix, Linux...), les conventions de codage (xml, rtf, MS 
Word, etc), les limites en Vitesse de processeur, taille memoire, taille des entiers, etc. 
20 Cette fonction est en general lancee au debut de toute execution d'un 

programme utilisant I'API StrStrEx et ses derives. 



Au moins une partie de ces fonctions peut etre regroupee dans ce que Ton 
appelle une bibliotheque qui peut etre integree dans d'autres applications. 
25 Par exemple, cette bibliotheque peut etre integree dans d'autres applications 

pour construire un moteur de recherche base sur la technique de balayage d'une 
table de representation telle que decrite precedemment, qui a la particularity de : 

- pouvoir integrer une fenetre d'apergu dont le contenu est extrait de 
ladite table, et 

30 - grace aux balises de mise en page, offrir en plus une presentation 

equivalente aux documents de depart dans la majorite des cas. 
Cette bibliotheque peut egalement etre integree dans d'autres applications 
pour construire ou analyser un conteneur regroupant a la fois : 

- des documents comportant du texte tels que MS Word ou Pdf provenant 
35 du disque local ou du reseau local d'un utilisateur, 



WO 2005/101240 



PCT/FR2005/000659 



- des courriers electroniques avec leurs pieces jointes, c'est-a-dire des 
documents comportant du texte (MS Word, pdf, etc.) ou tout document 
tel que image, son, etc., et 

- les elements suffisants pour avoir un apergu des documents 
5 comportant du texte, sans avoir a ouvrir ces documents avec le 

programme associe, ce que Ton obtient en inserant un des elements de 
ladite table de representation des documents stockes. 
Grace a une codification avec des balises de mise en page, il est possible de 
supprimer la plus grande partie des documents de type texte tels que MS Word ou 
10 Pdf puisque ladite table contient le plus souvent une information equivalente. 

il faut savoir que les documents Pdf et surtout MS Word sont en general 10 
fois plus volumineux qu'un document en format rtf equivalent et a fortiori qu'un fichier 
utilisant des balises tres compactes comme celui qui est decrit ci-dessus. 

Un tel gain de place est fort utile, a la fois pour sauver I'information sur 
15 disque, pour generer des sauvegardes, pour constituer des archives pour les 
courriers electroniques, pour transporter ces informations sur les reseaux locaux ou 
via Internet sous forme de pieces jointes dans les courriers electroniques. Ceci 
permet d'eviter que beaucoup d'utilisateurs de grandes entreprises soient obliges de 
supprimer leurs courriers electroniques vieux de plus de 6 ou 12 mois, ce qui 
20 constitue une gene importante pour eux. 

Cette bibliotheque peut egalement etre integree clans d'autres applications 
pour construire les differents elements d'un logiciel de messagerie pour : 

- integrer un moteur de recherche avec les caracteristiques decrites ci- 
dessus, et 

25 - offrir un nouveau systeme de piece jointes utilisant un conteneur decrit 

ci-dessus. 

Cette bibliotheque peut egalement etre integree dans d'autres applications 
pour construire des bases de donnees contenant essentiellement des informations 
non modifiables comme on le voit dans I'exemple ci-dessous. 
30 Une banque comporte un million de clients, et I'ensemble des courriers 

electroniques y compris les pieces jointes, des courriers ou documents specifiques 
d'un client represente en moyenne vingt mille caracteres (soit environ dix pages 
pleines). L'ensemble de ces donnees, avec les balises pour la mise en page, plus les 
identifiants (code agence, numero de compte, dates, textes specifiques, references 
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des divers courriers, adresses electroniques, etc.) et les balises de formatage 
correspondantes, represente au maximum 32 Ko. 

Un client compte en moyenne une vingtaine de mouvements par mois, et il 
faut en moyenne environ une centaine de caracteres pour decrire un mouvement 
5 comptable : code agence, code operation, numero de compte, dates, montant, texte 
associe tel que « virement a Monsieur Untel » ou « cheque No 12345 », numero 
d'imprime utilise pour imprimer le releve de compte. 

L'ensemble des mouvements d'un client pendant une annee, avec les balises 
correspondantes represente au maximum 32 Ko. 
10 Uensemble de toutes ces informations non modifiables, a savoir tous les 

documents de type texte dans la vie d'un client ainsi que tous les mouvements 
comptables pendant un an represente 64 Go, qui pourraient facilement tenir dans le 
disque dur d'un simple micro-ordinateur. 

Quand il y a un nouveau document, ou un nouveau mouvement comptable, il 
15 suffit de le rajouter a la fin de la table de representation des documents stockes, ce 
qui rend inutile ('utilisation de pointeurs ou de tables de correspondance en tout 
genre qui posent des problemes de mise a jour, et surtout de reprise en cas 
d'incident, pour une simple question de coherence entre les differentes informations. 

Si Ton veut afficher tous les mouvements comptables d'un client pendant les 
20 quinze derniers jours a partir d'un poste de travail dans une agence, on procedera 
comme suit : 

- a partir du poste de travail, on lance une requete vers une base de 
donnees distante pour rechercher toutes les operations correspondant a 
un numero de compte donne, entre deux dates predeterminees. 
25 - en retour, tous les mouvements, avec les contenus et les balises, tels 

que decrits ci-dessus, sont renvoyes par le reseau interne de la banque, 
de la base de donnees vers le poste de travail, et peuvent etre affiches 
a I'ecran . 

Si Ton veut imprimer un releve de compte grace au numero d'imprime utilise 
30 pour imprimer le releve de compte, il sera possible d'imprimer un releve ce compte 
identique a celui qui avait ete envoye au client. Comme on peut le constater la 
fonction ExtractData peut utilement etre deportee dans une machine autre que celle 
qui contient la base de donnees. 

Un des principaux interets de ce precede, e'est que e'est la merne sequence 
35 de caracteres qui figure dans la base de donnees, et qui est utilisae en fin de 
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traitement pour imprirner le document, et cette chaine de caracteres est tres 
compacte, ce qui a pour effet de reduire le trafic sur le reseau. 



Pour obtenir des temps d'acces compatibles avec les applications evoques ci- 
5 dessus, il y a plusieurs possibilites qui peuvent etre mises en ceuvre 
independamment les unes des autres, ou bien ensemble, le but etant toujours 
d'executer le plus rapidement possible la fonction StrStrEx, et en particulier la 
sequence destructions qui permet d'ignorer les caracteres sans interet comme dans 
I'exemple ci-apres : si on recherche la sous chaine « information », il faut parcourir le 
10 plus rapidement possible la chaine, en ignorant les balises de mise en page, jusqu'au 
moment ou Ton rencontre un « i » majuscule ou minuscule, et quand on en a trouve 
un, determiner rapidement si le caractere utile suivant est un « n » majuscule ou 
minuscule. 

Parmi ces differentes possibilites, on peut citer : optimiser le code en langage 
15 assembleur, utiliser das microprocesseurs performants pour executer ce type de 
programme en raison de la taille de la memoire cache ou de leur aptitude a executer 
plusieurs instructions en un seul cycle d'horloge, utiliser des processeurs travail I ant 
sur 64 bits voire plus. 

Comme cela est represents sur la figure 5, on peut utiliser plusieurs 
20 microprocesseurs Co-Pi ou ordinateurs en parallele travaillant chacun sur une partie 
MEMi de la table de representation des documents stockes. Par exemple, on peut 
adjoindre a un simple micro-ordinateur avec 4 Go de memoire, une carte du type 
DSP32 equipee de 16 microprocesseurs travaillant chacun en parallele sur 1/16eme 
de la table de representation complete. 
25 On encore utiliser un microprocesseur supportant la technologie FPGA (de 

I'anglais « Field Programmable Gate Array ») et creer la succession de portes 
logiques correspondant a la partie de la fonction StrStrEx qui doit etre executee tres 
rapidement. 

Une autre possibility est d'utiliser un microprocesseur qui est capable, en 
30 quelques cycles d'horloge, d'executer une sequence de plusieurs dizaines, ou 
centaines, ou milliers d 'instructions qui ne sont pas stockees dans la memoire de la 
machine, et chargees a chaque fois dans la memoire cache du microprocesseur, 
mais gravees au moins en partie dans le microprocesseur lui-meme, a la maniere 
des composants specialises comme les processeurs graphiques qui permettent 
35 I'affichage rapide d'une image haute definition. 
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Selon les cas, au moins une partie de la bibliotheque des API peut, soit etre 
ajoutees a un microprocesseur existant, ce qui permet d'obtenir un balayage rapide 
avec un simple micro-ordinateur, par exemple pour effectuer des recherches dans 
des courriers electroniques, soit etre placees dans un microprocesseur separe, 
5 appele co-processeur Co-Pi, qui accede a la memoire de la machine, et execute ses 
instructions sous le controle d'un autre microprocesseur maTtre MainProc, comme le 
fait le processeur graphique d'un micro-ordinateur (cf. figure 5). 

Utilement on peut egalement placer dans le microprocesseur une ou 
plusieurs tables dictionnaire, en vue d'accelerer ['analyse grammaticale d'un 
10 document. 
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AIM N EXE 

Exemple de code ecrit en langage C pour une partie de la fonction StrStrEx 

5 

^***** 

dans I'exemple suivant, on a suppose que Ton recherche la chatne de caracteres 
"levrier" 

- tous les caracteres affichables sont compris entre 0x1 et BALISEJWINI -1 ; 
10 - toutes les balises sont comprises entre les valeurs BALISEJMINI et 
BALISE_MAXI, a savoir : 

- BALISE_MINI2 et BALISE_MAXI2 pour les balises a 2 caracteres, 

■ BALISE_MINI3 et BALISE_MAXI3 pour les balises a 3 caracteres, 

■ B ALI S E_S AM E_C H AR est la balise pour substituer un caractere (pour 
15 trouver "levrier" ou "levrier"), 

■ etc. 

***** J 

LPCSTR StrStrEx (LPCSTR ptrStart, LPCSTR ptrSubChain, UINT uiParameter, 
20 STRSTREX *strConvFormat) 
{ 

strupr (ptrSubChain) ; 

BYTE ucFirstCharUpr = ptrSubChain [0] ; 
BYTE ucSecondCharUpr = ptrSubChain [1] ; 

25 

strlwr (ptrSubChain) ; 

BYTE ucFirstCharLwr = ptrSubChain [0] ; 
BYTE ucSecondCharLwr = ptrSubChain [1] ; 

30 // boucle tres courte pour traiter d'abord les cas statistiquement les plus frequents, 
// I'objectif n'est pas d'avoir un code compact, mais rapide 
while ( TRUE) 
{ 

if ( *ptr == 0) 

35 break ; 
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*ptr<BALISE_MINI 
*ptr != ucFirstCharLwr 
*ptr != ucFirstCharUpr) 



{ 



ptr++ ; 
continue 



// --> caractere suivant 



} 



{ 



*ptr == BALISE_SAME_C HAR) 



ptr++ ; 
'f( 



// avancer d'un caractere pour tester le caractere suivant 
*ptr != ucFirstCharLwr 



&& *ptr != ucFirstCharUpr) 

{ 

ptr++ ; 

continue ; // — > caractere suivant 

} 

} 

else if (*ptr <= BALISE_MAXI2 ) 
{ 

ptr+= 2 ; // avancer de 2 caracteres pour tester le caractere suivant 
continue ; 

} 

else if (*ptr <= BALISE_MAXI3 ) 
{ 

ptr+= 3 ; // avancer de 2 caracteres pour tester le caractere suivant 
continue ; 

} 

// — lei, on a trouve le premier caractere de la sous-chaine ( T de "levrier") 

if (ucSecondCharLwr != 0) // protection si la sous-chaine comporte plus d'un 
caractere 

{ 
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ptr++ ; 



if ( *ptr == 0) 

break ; 

5 

if ( *ptr < BALISE_MINI 

&& *ptr != ucSecondCharLwr 
&& *ptr != ucSecondCharUpr) 

{ 

10 ptr++ ; 

continue ; // — > caractere suivant 

} 



else if ( *ptr == BALISE_SAME_CHAR) 
15 { 

ptr++ ; // avancer d'un caractere pour tester le caractere suivant 
if ( *ptr != ucSecondCharLwr 
&& *ptr != ucSecondCharUpr) 

{ 

20 ptr++ ; 

continue ; // — > caractere suivant 

} 

} 

else if (*ptr <= BALISE_MAXI2 ) 
25 { 

ptr+= 2 ; // avancer de 2 caracteres pour tester le caractere suivant 
continue ; 

} 

else if (*ptr <= BALISE_MAXI3 ) 
30 { 

ptr+= 3 ; // avancer de 2 caracteres pour tester le caractere suivant 
continue ; 

} 

} 



35 
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// — lei, on a trouve les premiers caractere de la sous-chaTne ( T de "levrier") — // 
on peut effectuer la meme operation pour Le 3eme caractere, ou bien effectuer une 
boucle. 



WO 2005/101240 



PCT/FR2005/000659 



37 

REVENDICATIONS 

1. Procede de recherche d'informations dans des documents stockes dans une 
memoire electronique, comportant les etapes suivantes : 

5 - selection d'au moins un document parrni les documents stockes, a 

partir d'une requete comportant au moins une chaTne de caracteres 
predeterminee, puis 
- extraction d'un resultat en vue de son affichage sous forme d'un 
apergu d'informations relatives au document selectionne, 
10 - prealablement aux etapes de selection et d'extraction, generation 

d'une table de representation des documents stockes, comportant une 
chaTne de caracteres comprenant au moins une partie des 
informations des documents stockes, 
caracterise en ce que, lors de I'etape d'extraction, on genere le resultat a 
15 I'aide de la table de representation, a partir d'informations contenues dans la 

chaTne de caracteres de la table de representation jugees pertinentes en 
fonction de la requete. 

2. Procede de recherche d'informations selon la revendication 1, dans lequel, 
lors de I'etape de selection, on compare la chaTne de caracteres 

20 predeterminee de la requete a la chaTne de caracteres de la table de 

representation, notamment par balayage sequentiel de la table de 
representation, pour selectionner au moins un document parmi les documents 
stockes. 

3. Procede de recherche d'informations selon la revendication 1 ou 2, dans 
25 lequel, au moins un document stocke etant de type courrier electronique et 

comportant plusieurs rubriques distinctes choisies parmi I'ensemble 
d'elements constitue d'une adresse d'un ernetteur, d'une adresse d'un 
destinataire, d'un en-tete, d'un corps de message, et d'au moins une piece 
jointe, la chaTne de caracteres de la table de representation comporte au 
30 moins une partie des informations de type texte de chaque rubrique du 

document de type courrier electronique. 

4. Procede de recherche d'informations selon les revendications 2 et 3, dans 
lequel pour le document de type courrier electronique, on balaye 
sequentiellement les informations concernant la piece jointe avant les 

35 informations concernant toute autre rubrique de ce document. 
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5. Procede de recherche d'informations selon Tune quelconque des 
revendications 1 a 4, dans lequel la chaine de caractere de la table de 
representation comporte en outre pour chaque document stocke des 
informations d'identification de ce document. 
5 6. Procede de recherche d'informations selon Tune quelconque des 

revendications 1 a 5, dans lequel on stocke en memoire au moins une partie 
du resultat de la recherche d'informations. 

7. Procede de recherche d'informations selon Tune quelconque des 
revendications 1 a 6, dans lequel la partie du resultat de la recherche 

10 d'informations stockee en memoire est stockee dans un fichier apte a 

comporter plusieurs resultats de plusieurs recherches. 

8. Procede de recherche d'informations selon Tune quelconque des 
revendications 1 a 7, comportant, lors de I'etape d'extraction du resultat, les 
etapes suivantes : 

15 - extraction des informations contenues dans la chaine de caracteres de 

la table de representation jugees pertinentes en fonction de la requete, 

- transmission de ces informations vers un terminal distant par 
I'intermediaire d'un reseau de transmission de donnees, 

et dans lequel I'affichage du resultat est realise par le terminal distant. 
20 9. Procede de recherche d'informations selon Tune quelconque des 

revendications 1 a 8, dans lequel, lors de I'etape de generation de la table de 
representation des documents stockes, on effectue une conversion pour que 
tout caractere affichable d'une zone de type texte des documents stockes soit 
code : 

25 - soit sur un octet ; 

- soit a Taide d'une balise inseree dans la table de representation et 
suivie d'un code sur un octet. 

10. Procede de recherche d'informations selon I'une quelconque des 
revendications 1 a 9, dans lequel, lors de Petape de generation de la table de 

30 representation, on insere dans la chaTne de caracteres de la table de 

representation au moins un ensemble de donnees delimite par au moins une 
balise pour completer les informations comprises dans cette chaine de 
caracteres. 

11. Procede de recherche d'informations selon la revendication 10, dans lequel 
35 chaque balise inseree dans la chaTne de caracteres comporte au moins un 
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caractere d'echappement code sur un octet n'appartenant pas aux caracteres 
affichables figurant dans les 128 premieres positions de la table de 
codification ASCII. 

12. Procede de recherche d'informations selon la revendication 10 ou 11, dans 
5 lequel Pensemble de donnees comporte des donnees d'aide a la presentation 

de I'apergu, utilisees lors de I'etape d'extraction du resultat. 

13. Procede de recherche d'informations selon Tune quelconque des 
revendications 10 a 12, dans iequel I'ensemble de donnees comporte des 
donnees d'aide a la selection d'au moins un document. 

10 14. Procede de recherche d'informations selon Tune quelconque des 

revendications 10 a 13, dans lequel on insere dans la chame de caracteres de 
la table de representation au moins une zone d'informations de type 
numerique codee sur un nombre predetermine d' octets delimite par au moins 
une balise d'indication de cette zone numerique. 

15 15. Procede de recherche d'informations selon la revendication 14, dans lequel 

la balise d'indication de la zone numerique est en outre une balise d'indication 
d'une convention de presentation de cette zone numerique. 

16. Procede de recherche d'informations selon Tune quelconque des 
revendications 10 a 15, dans lequel les documents stockes etant repartis en 

20 differents types de documents, on definit pour chiaque type de documents un 

ensemble de balises destinees a etre inserees dans la chaine de caracteres 
de la table de representation, chaque balise de cet ensemble ayant une 
signification specifique a ce type de documents. 

17. Procede de recherche d'informations selon I'une quelconque des 
25 revendications 10 a 16, dans lequel on insere dans la chatne de caracteres de 

la table de representation au moins un ensemble de donnees exprimees en 
ecriture phonetique delimite par au moins une balise d'indication d'ecriture 
phonetique. 

18. Procede de recherche d'informations selon I'une quelconque des 
30 revendications 10 a 17, dans lequel on insere dans la chatne de caracteres de 

la table de representation au moins une balise d'indication qu'un nombre 
predetermine de caracteres suivant cette balise dans la chaine de caracteres 
de la table de representation n'a pas a etre balaye lors de I'etape de selection. 

19. Procede de recherche d'informations selon I'une quelconque des 
35 revendications 10 a 18, dans lequel on insere dans la chatne de caracteres de 
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la table de representation au moins un ensemble de donnees correspondant 
a une analyse grammaticale d'une partie du contenu d'au moins un document 
stocke, delimite par au moins une balise dedication d'analyse grammaticale. 
20. Procede de recherche deformations selon Tune quelconque des 
5 revendications 10 a 19, dans lequel on insere dans la chaine de caracteres de 

la table de representation au moins un ensemble de donnees correspondant 
a des meta-donnees de description d'une partie du contenu d'au moins un 
document stocke, delimite par au moins une balise dedication de meta- 
donnees. 

10 21. Procede de recherche d'informations selon I'une quelconque des 

revendications 10 a 20, dans lequel on insere dans la chaine de caracteres de 
la table de representation au moins une balise pour lancer un programme 
predetermine. 

22. Procede de recherche d'informations selon I'une quelconque des 
15 revendications 1 a 21, dans lequel : 

- chaque document stocke comportant des informations reparties dans 
plusieurs rubriques distinctes predetermines communes a tous les 
documents stockes, le resultat est affiche sous la forme d'un apergu 
comportant une zone d'apergu pour chaque rubrique distincte 

20 commune et comportant une liste de documents initialement 

selectionnes pour des informations qu'ils contiennent jugees 
pertinentes en fonction de la requete, 

- chaque zone d'apergu est desactivable, et 

- lorsqu'on desactive au moins une zone d'aper?u, on maintient 
25 uniquement dans la liste affichee chaque document initialement 

selectionne pour des informations jugees pertinentes que ce 
document comporte dans au moins une rubrique correspondant a au 
moins une zone d'apergu qui reste activee. 

23. Moteur de recherche d'informations dans des documents stockes dans une 
30 memoire electronique, comportant : 

- des moyens de generation d'une table de representation des 
documents stockes, cette table comportant une chaine de caracteres 
comprenant au moins une partie des informations des documents 
stockes, 
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- des moyens de selection d'au moins un document parmi les 
documents stockes, a partir d'une requete comportant au moins une 
chame de caracteres predeterminee, 
caracterise en ce qu'il comporte des moyens d'extraction d'un resultat a 
I'aide de la table de representation, a partir d'informations contenues dans la 
chame de caracteres de la table de representation jugees pertinentes en 
fonction de la requete, en vue de I'affichage de ce resultat sous forme d'un 
apergu d'informations relatives au document selectionne. 

24. Microprocesseur comportant des instructions programmees pour la mise en 
oeuvre d'un procede de recherche d'informations selon I'une quelconque des 
revendications 1 a 22. 

25. Microprocesseur selon la revendication 24, comportant en outre des moyens 
de stockage d'au moins une table dictionnaire comprenant un ensemble de 
mots dans une langue predeterminee, chaque mot etant associe dans cette 
table dictionnaire a des donnees d'analyse grammaticale. 
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